8.5.2 Transformer
RNNの計算を、時間方向で並列的に計算することは(基本的には)できません (p.370)
RNNを取り除く方向性の研究
「AttentionはRNNを置き換えるモジュールとしても利用できる(p.373)」示唆
(実際、その後にTransformerの派生モデルが続いている)
Transformerの特徴:Self-Attention
ひとつの時系列データを対象としたAttentionであり、ひとつの時系列データ内において各要素が他の要素に対してどのような関連性があるかを見ていこうというもの (p.370)
Transformerの構成:図8-38(p.372)
ただし簡略版
EncoderとDecoderの両方でSelf-Attention
フィードフォワードネットワーク
隠れ層が1層で活性化関数にReLUを用いた全結合のニューラルネットワーク (p.372)
(論文の数式の説明になっていそう。maxはReLU!)
Nx:N回積み重ね